Google DeepMind 发布 Lyria 3，多模态音乐生成能力接入 Gemini 与 Vertex AI

2026-02-19

592 词

标题：Google DeepMind 发布 Lyria 3，多模态音乐生成能力接入 Gemini 与 Vertex AI

DeepMind 推出第三代高保真音乐生成大模型 Lyria 3，首次实现“图/文/视频到音频”的直连生成，并同步作为可编程基础设施开放 API。

架构与多模态生成能力

Lyria 3 突破了单一文本输入的限制，支持基于自然语言、图片及视频直接输出 30 秒高保真（48kHz）音频。模型原生具备自动作词与和弦编排能力，用户可通过 Prompt 对流派、BPM（节奏）、人声声线及情绪张力进行细粒度控制。底层采用 Causal Streaming（因果流）架构，确保生成速度大于播放速度（RTF > 1），满足生产级系统的实时吞吐需求。在 Gemini 应用内，系统自动调用 Nano Banana 图像模型为生成的音轨输出定制化单曲封面。

商业与开发生态双线接入

消费者端：以“Music”工具面板形式全量接入 Gemini Web 及移动端，首批支持英语、德语、日语等 8 种语言。Google AI Plus/Pro/Ultra 订阅用户享有比基础免费用戶更高的生成额度。
开发者端：通过 Vertex AI 提供 API 接口，标志着音频生成正式被作为可编程基础设施对待。开发者可进行进阶操作，如音频转换（哼唱转管弦乐）、MIDI 风格迁移（通过 MIDI 和弦生成人声合唱）及保持原始旋律的乐器无缝替换。

Google NotebookLM 支持幻灯片单页局部修改并开放 PPTX 导出

2026-02-18

AI资讯

454 词

核心摘要：Google 修正了 NotebookLM 幻灯片生成功能最大的工作流断点，新增通过提示词对单张幻灯片进行局部修改的能力，并首次支持 .pptx 格式导出，产品形态从“一次性生成器”向“实用生产力工具”过渡。

基于提示词的单页修改

机制升级：彻底摒弃此前“改动一处需重新生成整套 PPT”的全局渲染模式。用户现可锁定单张幻灯片（如“第 3 页”），通过输入提示词（例：“将第 3 页缩减为三个要点”或“调整第 6 页为高管汇报语气”）进行内容结构、长度或基调的定向修改。
分发进度：该功能于 2026 年 2 月 17 日起，率先在 Web 端向 Google AI Pro / Ultra 订阅用户推送。免费版用户将在未来几周内获得访问权限，移动端支持暂未实装。

格式解锁与生态接入

新增导出格式：打破原有的死板 PDF 封装限制，正式提供 .pptx 格式原生导出，允许用户将幻灯片直接拖入 Microsoft PowerPoint 进行后续流程。
后续路线图：NotebookLM 官方团队在 X 明确确认，与自家 Google Slides 的原生打通功能“即将上线”。

月之暗面发布 Kimi Claw：开源智能体 OpenClaw 的云端原生化

2026-02-16

AI资讯

602 词

Moonshot AI 推出基于 K2.5 模型驱动的云端智能体服务 Kimi Claw，通过免部署、24/7 在线及原生集成 5000+ 社区技能，消除本地 AI 助手的硬件与技术门槛。

技术基建与底层重构

免部署云原生化：将 GitHub 上拥有 15 万标星的开源项目 OpenClaw 封装为浏览器端（kimi.com/bot）云服务。用户无需配置本地终端或维持服务器长亮，实现实例 24/7 全天候在线。
算力与存储：默认搭载 Moonshot K2.5 模型，提供 40GB 专属云端存储空间，用于支撑大规模数据工作流（Data Workflows）与文件长时记忆。
实时数据挂载：引入企业级搜索（Pro-Grade Search），支持抓取特定结构化实时数据（如金融盘口），通过动态信息注入（Grounding）降低时间敏感型任务中的模型幻觉。

生态集成与执行能力

插件与技能栈：系统级集成 ClawHub 全球技能注册表，开箱即用超过 5000 个社区 Skills（涵盖代码、系统运维、日常自动化）。
企业与通讯网络打通：支持快速接入飞书、WhatsApp、Telegram 等通讯和协同工具，作为独立实体自主执行异步定时任务和自动化管道。
混合部署架构（BYOC）：针对已有本地节点的开发者，提供 “Bring Your Own Claw” 桥接功能，允许保留本地系统级控制权（如控制智能家居或本地硬件）的同时，调用 Kimi 云端界面的管理能力。

OpenClaw创始人加入OpenAI，项目主体转入独立基金会

2026-02-16

AI资讯

585 词

爆火开源智能体OpenClaw创始人Peter Steinberger正式加盟OpenAI主导个人智能体研发，标志着巨头AI战略重心正从“大模型对话”向“多智能体执行”发生实质性转移。

人事落定与项目剥离

人才争夺：Peter Steinberger 拒绝了 Meta（含扎克伯格的亲自招募），于当地时间2026年2月15日确认加入 OpenAI。OpenAI CEO Sam Altman 在 X 平台确认，Steinberger 将负责“下一代个人智能体（personal agents）”的开发。
开源归属：为打消社区疑虑，OpenClaw（前身 Clawdbot/Moltbot）不会被 OpenAI 私有化，而是转移至一个独立的基金会继续保持开源，OpenAI 承诺提供支持。此前该项目为个人维护，Steinberger 每月自费1万至2万美元维持运转。

战略锚点：消费级 Agent 的破局

交互降槛：Steinberger 入职的明确目标是构建“连母亲都能使用的智能体”。OpenClaw 此前在 GitHub 狂揽超10万星，单周访问量破200万，能自主跨应用处理邮件及航班值机，但极客属性过重。
技术走向：Altman 明确表示未来将是一个“极度多智能体（extremely multi-agent）”的世界。OpenAI 意图借此补齐大模型与普通用户间的应用层短板，完成 AI 从开发者玩具到大众消费品的跨越。

字节跳动发布 Doubao-Seed-2.0 系列，主攻 Agent 长链路推理与极端降本

2026-02-15

AI资讯

1.2k 词

字节跳动基座大模型完成跨代升级，Doubao-Seed-2.0 聚焦大规模生产环境中的复杂任务执行，通过单价降维打击（百万 Tokens 0.6元起）与多模态大一统架构，争夺企业级 Agent 底层算力入口。

2026 年 2 月 14 日，字节跳动（火山引擎）正式上线 Doubao-Seed-2.0 系列，包含四款针对不同业务流优化的细分版本：

Doubao-Seed-2.0-Pro：旗舰级通用模型，定位复杂指令规划与多模态长上下文推理，能力全面对标 GPT-5.2 与 Gemini 3 Pro。
Doubao-Seed-2.0-Lite：生产力主力款，综合测试超越上一代旗舰豆包 1.8。核心策略为价格重塑，输入侧百万 Tokens 定价低至 0.6 元人民币。
Doubao-Seed-2.0-Mini：面向高频低时延场景。支持 256k 超长上下文窗口，并开放了 4 档思考长度调节机制以控制算力开销。
Doubao-Seed-2.0-Code：垂直代码模型。针对前端开发及企业级多语言编码环境定向微调，已深度接入字节系 AI 编程客户端 TRAE。

📌 Benchmark 数据比对

基于 2026 年 2 月最新公开的技术报告与独立评测库（如 Multi-SWE-Bench）的三角验证，以下是 Doubao-Seed-2.0-Code 与当前业界标杆 Claude Opus 4.6 及 GPT-5.2 的核心工程能力对比：

评测维度 / 模型	Doubao-Seed-2.0-Code	Claude Opus 4.6	GPT-5.2 Codex
Multi-SWE-Bench (跨文件/多语言真实 Issue 修复)	49.4%	50.3%	~42.7%
SWE-Bench Multilingual (9 种编程语言综合修复率)	72.5%	77.8%	暂无官方完整披露
原生上下文窗口 (Context Window)	256K	1M	400K
API 综合调用成本预估	约定价于行业均价的 1/10	~$75 / 1M Tokens (输出)	~$60 / 1M Tokens (输出)

破除 Python 偏科：多语言工程化落地

传统的 SWE-Bench 测试集高度偏向 Python 生态。而在涵盖 Java、TypeScript、Go、C++ 等复杂企业级语言的 Multi-SWE-Bench 极限测试中，Doubao 取得 49.4% 的综合解决率，与榜首 Claude Opus 4.6（50.3%）差距不足 1%，从底层证明了其跨语言语法的特征对齐能力，而非单一语言的过拟合（Overfitting）。

Agent 规划与代码库导航

得益于原生 256K 的上下文窗口，Doubao-Seed-2.0-Code 能够完整摄入中大型项目的依赖关系树及 Diff 记录。在实际的测试框架下，其展现出了极强的“提议-验证-回滚”的 Agent 工作流意识，将模糊的业务工单（Tickets）转化为带溯源注释的代码补丁。

字节跳动上线豆包“专家模式”，全端接入豆包大模型2.0 Pro

2026-02-14

AI资讯

679 词

豆包大模型2.0 Pro重点强化深度推理与多模态动态感知能力，核心指标对标GPT-5.2与Gemini 3 Pro，并通过阶梯定价策略降低复杂Agent任务的API调用成本。

2026年2月14日，字节跳动正式推出豆包大模型2.0（Doubao-Seed-2.0）系列，面向大规模生产环境。目前，豆包App、PC客户端及网页版已全线上线“专家模式”，默认调用Pro版模型；B端API已同步登陆火山引擎。

2.0 Pro（旗舰版）：主攻深度推理与长链路任务。采取按“输入长度”区间定价，32K以内的输入为3.2元/百万Tokens，输出为16元/百万Tokens。
2.0 Lite / Mini：Lite版综合性能超越前代主力模型（豆包1.8），输入定价下探至0.6元/百万Tokens；Mini版主打低时延与高并发场景。
2.0 Code：专为编程场景构建，已接入字节AI编程产品TRAE。

核心Benchmark与技术突破点

数学与逻辑推理：2.0 Pro 在 IMO（国际数学奥赛）、CMO 及 ICPC 编程竞赛中达到金牌级水平；在 Putnam 基准测试中成绩超越 Gemini 3 Pro。
Agent能力与世界知识：在 HLE-text（人类的最后考试）中获得目前披露的最高分 54.2 分；在长尾领域知识测试 SuperGPQA 中分数超过 GPT-5.2，并在 HealthBench 排名第一。
动态多模态理解：对时间序列与运动感知的理解大幅升级。在 EgoTempo 视频基准测试中超越人类基准线，捕捉“变化、动作、节奏”的能力提升，支持实时流式视频问答与环境主动感知。

MiniMax M2.5 开启内测：10B 激活参数对标 Claude Opus 4.6

2026-02-12

AI资讯

845 词

标题：MiniMax M2.5 开启内测：10B 激活参数对标 Claude Opus 4.6

MiniMax 发布 2026 年度首款旗舰编程模型，以“Agent 原生”架构切入市场，在保持 100 TPS 高吞吐的前提下，宣称代码与推理能力对标刚发布一周的 Claude Opus 4.6。

1. 架构与性能 (Architecture & Specs)

MoE 架构优化：M2.5 延续了 MiniMax 的稀疏混合专家 (MoE) 路线，虽然总参数量庞大，但激活参数仅为 10B (100亿)。这种设计旨在平衡推理成本与性能，使其能够部署在对延迟敏感的生产环境中。
高吞吐表现：实测推理速度达到 100 TPS (Tokens Per Second)，在处理长上下文代码补全和多轮对话时，延迟显著低于同级别的竞品（如 DeepSeek-V3.2 或 Kimi K2.5）。
对标竞品：官方基准测试（Benchmark）声称其编程与 Agent 编排能力直接对标 Claude Opus 4.6（Anthropic 于 2026 年 2 月 5 日发布的最新旗舰）。

2. Agent 原生能力 (Agent-Native Capabilities)

全栈开发闭环：不同于传统的“文本生成代码”模型，M2.5 被定义为“生产级 Agent 原生模型”。它针对**Code-Run-Fix（代码-运行-修复）**的迭代循环进行了专项训练，能够自主执行多文件编辑、终端调试及跨平台（PC/App/Web）应用构建。
复杂任务编排：在“深度研究”和“高级 Excel 处理”等办公场景中表现突出，能够协调调用 Shell、浏览器及 Python 解释器等工具，维持长链路逻辑的一致性。
海外内测：目前该模型已在 MiniMax 的海外 Agent 产品线中开启小范围内测。
受 M2.5 发布消息影响，相关上市实体 MINIMAX-WP (00100.HK) 股价在 2 月 12 日单日涨幅一度超过 20%，市值突破 1800 亿港元。市场将其解读为国产大模型从“通用追赶”向“垂直场景（编程/Agent）变现”转型的信号。

Google Antigravity IDE 正式集成 Claude Opus 4.6

2026-02-10

AI资讯

660 词

Google 旗下的 AI 原生 IDE “Antigravity” 已于 2026 年 2 月 6 日完成对 Anthropic 最新模型 Claude Opus 4.6 的接入，用户通过重启客户端即可在模型列表中调用。

核心集成：Claude Opus 4.6 (2026.02 Update)

根据 Google AI 开发者社区及 Reddit 核心用户反馈，Antigravity IDE 的最新热更新已将 reasoning model（推理模型）列表中的 Claude Opus 4.5 替换或升级为 Claude Opus 4.6。

接入方式： 官方原生支持（通过 Google Vertex Model Garden 渠道），无需用户配置第三方 Proxy。
版本特性： Opus 4.6 是 Anthropic 于 2026 年 2 月初发布的最新旗舰模型，主要针对长上下文代码推理和复杂重构任务进行了优化。
生效方法： 用户需重启 Antigravity 客户端（完全关闭进程），在 Agent 设置的 “Reasoning Model” 下拉菜单中即可看到新版本。

性能表现与差异

早期采用者（Early Adopters）在实测中指出 Opus 4.6 与前代版本的显著差异：

问题修复能力：针对 4.5 版本中存在的特定死循环（Soft-locked loop）和移动端应用（如 Expo/React Native）构建错误，4.6 展现了更高的“一次性修复率”。
Thinking 模式：在 “High Effort”（深度思考）模式下，Opus 4.6 的 Token 消耗速率约为 4.5 版本的 4 倍，表明其思维链（Chain of Thought）更加详尽。

字节跳动 Seedance 2.0 发布：AI 视频从「抽卡」迈向「工业化导演」

2026-02-09

AI资讯

749 词

字节跳动于 2026 年 2 月初低调上线的新一代视频模型，核心突破在于原生音画同步与多镜头叙事的一致性，标志着 AI 视频生成从“生成一段素材”进化为“导演一场戏”。

1. 原生音画同构与多镜头叙事 (Native A/V & Multi-Shot)

Seedance 2.0 最显著的代际差异在于其架构不再是“视频生成+后配音”，而是双分支扩散变换器 (Dual-Branch DiT)，实现了视频与音频的单次推理同步生成 (One-pass Generation)。

一致性突破：支持“多镜头叙事”，即用户输入一段故事脚本，模型自动生成包含多个分镜的连贯片段。实测显示，在不同景别（特写、中景、远景）切换中，角色面部特征、衣着细节及场景氛围维持高度统一，解决了此前行业普遍存在的“换个镜头就换张脸”的痛点。
音画同步：生成的视频自带原生音频，涵盖口型同步（Lip-sync）、环境音效及配乐，且音效能精确匹配画面动作（如金属撞击声）。

2. 「导演级」控制权 (Director-Level Control)

该模型集成了类似“虚拟导演”的逻辑，大幅降低了提示词门槛，同时提升了可控性。

自动运镜与分镜：模型具备自运镜 (Auto-Camera) 能力，能根据文本情节自动规划推拉摇移。
多模态参考 (Universal Reference)：支持极高带宽的输入，允许同时输入最多 9 张参考图、3 段参考视频及 3 段参考音频。这意味着创作者可以用具体的视觉/听觉素材精准控制生成结果的风格、动作和节奏，而非仅依赖文字。
物理引擎升级：重构了物理规律理解模块，在处理高速运动、织物飘动、流体及光影反射（如眼镜反光稳定性）时，符合真实物理反馈，消除了大部分“AI 塑料感”。

目前已在字节跳动旗下即梦 (Jimeng) 平台上线，面向订阅用户开放。

OpenClaw v2026.2.6：自主Agent框架的安全硬着陆与模型超前部署

2026-02-07

AI资讯

746 词

这是一个标志着 OpenClaw 从“极客玩具”向“生产级基础设施”转型的里程碑版本。核心信号在于对安全性的系统级加固（34项安全提交），以及对下一代模型（Opus 4.6/GPT-5.3）的超前架构兼容。

安全防线重构 (Critical Security Hardening)
SSRF 与远程执行封堵：修复了高危的 SSRF 漏洞，现在对 Skill 安装下载和媒体理解（Media Understanding）的 Provider 获取请求实施严格的 SSRF 护栏，并明确阻止私有/本地主机 URL。
权限收束：Windows 环境下的 exec 白名单得到加固，封堵了通过单 & 符号绕过 cmd.exe 的路径。Gateway 的 /approve 指令现在强制要求 operator.approvals 权限，杜绝未授权审批。
身份验证升级：在跳过设备身份验证前，现在强制要求验证共享密钥（Shared-secret auth），并修复了 Matrix 协议中模糊名称解析可能导致的未授权访问问题。
模型与基础设施扩展 (Model & Infra)
超前兼容性：代码库已预埋对 Anthropic Opus 4.6 和 OpenAI Codex gpt-5.3-codex 的支持（含前向兼容的回退机制）。这意味着 OpenClaw 正试图成为首个原生支持这两款尚未全面公测模型的主流 Agent 框架。
多模态与记忆增强：原生集成 Voyage AI 以提升长期记忆（Memory）的检索性能；新增 xAI (Grok) 作为官方支持的 Provider。
可观测性：Web UI 新增 Token 使用量仪表盘（Token Usage Dashboard），解决了此前自托管用户难以统计多模型混合调用成本的痛点。
OpenClaw v2026.2.6 Release Notes

最新文章

标签

分类

归档

Google DeepMind 发布 Lyria 3，多模态音乐生成能力接入 Gemini 与 Vertex AI

标题：Google DeepMind 发布 Lyria 3，多模态音乐生成能力接入 Gemini 与 Vertex AI

架构与多模态生成能力

商业与开发生态双线接入

Google NotebookLM 支持幻灯片单页局部修改并开放 PPTX 导出

基于提示词的单页修改

格式解锁与生态接入

月之暗面发布 Kimi Claw：开源智能体 OpenClaw 的云端原生化

技术基建与底层重构

生态集成与执行能力

OpenClaw创始人加入OpenAI，项目主体转入独立基金会

人事落定与项目剥离

战略锚点：消费级 Agent 的破局

字节跳动发布 Doubao-Seed-2.0 系列，主攻 Agent 长链路推理与极端降本